Tuili serving 层及以下需求汇总

1. 长文本首字延时降低

客户：中电 ✅ 2024-10-29

客户描述：在论文解读这类AI应用，LLM 调用处理的是长文本，长文本的首字延时将会很重要。
开始时间：2024.10.17

TODO：

已经论证单卡运行 llama3-8b 2048/bs8的可行性，能否支持bs 16/32？ ✅ 2024-10-29
runtime层：实现 prefill 与 decoding分离的方案，没有人力支持，pending

3. Tuili serving 功能完善性需求

客户：中电 ✅ 2024-10-29

客户描述：
1. 推理框架关于任务取消，有处理逻辑吗？
2. 模型切换的接口控制需求
3. 请求模型参数的接口控制需求
开始时间：2024.10.17

TODO

关于1， tuili serving层：增加关于任务中断的处理逻辑
关于2.3 需要runtime + tuili serving，runtime 暂时没有人力，此事pending

4. Embedding 模型私有化部署

客户：弘机 ✅ 2024-10-29

客户描述：现在业内开源最普遍的其实是agent平台和知识库，知识库会用到embedding模型(rerank和tts不是必须的但是大部分先进的开源项目都会有的)。
开始时间：2024.10.28

embedding 模型调研Embeding Models 开源模型现状 ✅ 2024-10-29

已有方案： ✅ 2024-10-29

embedding 调用远程接口，我们只需要提供远程接口，基于 GPU/开源接口/OpenAI。
- [ ] 不能满足私有化部署的需求。
- [ ] 技术风险相对确定，在GPU serving 配置vllm embedding接口。

一体机加装一个GPU显卡专门支持 embedding，使用vllm支持。
- [ ] 需要考虑模型大小，bge-m3有3种size，最大的5.8亿参数，不一定都能支持，
- [ ] 不同显卡运行，可能有未知的坑。
- [ ] 技术风险不确定

墨芯卡支持 bge-m3 需要做的事：
- [ ] 需要编译 bge-m3 开源版本，需要有人比较长时间投入embedding这个事，目前没有人分析这个事
- [ ] bankend 需要开发 embeding inference 接口，需要有人比较长时间投入embedding这个事，目前没有人分析这个事
- [ ] tuili 开发 inference embedding 接口，我可以适配
- [ ] 墨芯卡需要支持多模型运行，目前有bug，需要有人解决这个问题，难度大
- [ ] 此外，2卡支持 llm和embedding速度会很慢，用户不会满意。
- [ ] 技术风险不确定

状态：方案评估

方案一已经实现，但是不满足一体机私有化部署的需求；
Liwei Zhang(Ginger) 联系主机厂商，探索一体机加装GPU可行性；如果混装不可行，实现墨芯卡的支持，但是推理性能怎么办，2张卡不够支持Llam3-8b 和 BGE-m3？四张卡或许可以

TODO

Tuili serving 层及以下需求汇总

1. 长文本首字延时降低

2. Tuili serving 并发数要求

3. Tuili serving 功能完善性需求

4. Embedding 模型私有化部署

5. Tuili serving 关于 tool_choices 支持

6. Tuili serving 与 vllm/open ai 的功能对齐

1. 长文本首字延时降低

2. Tuili serving 并发数要求

3. Tuili serving 功能完善性需求

4. Embedding 模型 私有化部署

5. Tuili serving 关于 tool_choices 支持

6. Tuili serving 与 vllm/open ai 的功能对齐

4. Embedding 模型私有化部署